查看原文
其他

期刊好文 | 语料库语言学答客问(桂诗春)(下篇)




6. 您如何评价中国语料库研究在过去若干年的发展以及目前的现状?

前面谈过,中国语料库研究虽然起步较晚,但发展非常迅速,而且很快就变成一门热门学科,成为研究生首选研究方向之一。原因也很简单,因为各种语料库很多,研究工具很普及,解决了资源和方法论的问题;但从学科的发展来看,却隐藏着一些危机,首先是作为一门交叉学科,选择这个方向的研究生应该掌握哪些基本知识?如果对这些知识一无所知或一知半解,则研究很难有什么深度,更难说有什么创新。所以要解决学科定位和学科建设的问题。我觉得语料库语言学是靠几个支撑学科发展起来的,所以需要掌握几门核心课程,如:1)“普通语言学”(包括语言理论、语音、语法、词汇、语义和语用等),它是统揽全局、不可或缺的基础知识;2)“语料库语言学的理论、发展和方法”,这当然是这个专业方向的核心课程;3)“计量(统计)语言学”,这是语料库的基本方法论,但却需要一些数学和统计学的基本知识。我有点怀疑我国有多少语料库语言学研究者是认真读过Oakes(1998)和Manning & Schutze(1999)的,所谓“认真”不仅是指读通,而是亲自动手做过运算的,起码是了解其计算流程的。即使是使用WordSmith Tools等工具,也需要充分利用其各种功能。所以计算机编程能力也是不可少的;4)“文本分析”,或称语篇分析,或批判性语篇分析。如果说语料库制作软件是研究手段的话,那么文本(包括习语、型式、口语与书面语、语域、文体、专门用途语言等等)就是其研究对象,文本分析在计算机支持下得到很大发展,见Stubbs(1996),Carter(1997),Adolphs(2006),Baker(2006)。
上述四个方面的知识,都是以语料库语言学作为研究对象的学者所必须具备的,也是建立语料库语言学这个学科都应该开设的核心课程。在语料库语言学日益兴旺的今天,那些热切地希望建立这个学科的单位都必须考虑培养、引进这些方面的精英与才智,不然的话就会出现最初是“一哄而起”,然后是人才断层的问题。语料库语言学在我国的路子就会越走越窄,目前我所看到的一些研究,较多的限于一些频数的罗列和比较;有些研究也使用到一些多维度的研究手段如因子分析,但研究者是依靠SPSS算出来的,而且并没有用在点子上,一些主要数据(如因子负荷)并没有列出和解释(对分离出的几个因子提出假设是因子分析的主要目标)。
Gries(2009,2013)写过两本关于怎样使用R语言来处理语料库和语言学中的描写统计学与分析统计学,不但介绍了它们的基本原理而且引导读者用R来编制程序。这两本书都值得学习和亲自动手运作,它有助于我们摆脱了对现行商业程序的依赖,真正了解内部机理。

7. 您能谈谈中国语料库研究在国际语料库研究学界应如何自我定位?(比如在选题、理论视角、方法论等方面)

我国具有悠久文明历史,典籍浩繁,我觉得中国语料库语言学应该首先定位在对汉语的研究;那是我们的母语,责无旁贷。西方语料库是在处理拼音文字基础上发展起来的,怎样处理方块字的汉语,却提出了很多挑战性任务有待我们解决,例如怎样划分“字”和“词”的界线(“企鹅”是两个字?一个词?还是两个词?“美利坚合众国”(The United States of America)是一个国名,在英语由5个词组成,“中华人民共和国”(The People’s Republic of China)也是一个国名,由多少个字或词组成?)这些问题每个人都可各自回答,但在语料库语言学里,则必须有一些毫不含混的规则,才能实施计算机自动化处理。和这个问题有关的是汉语怎样切分,我国语料库语言学家在现代汉语方面已经作了很多有益的探索,并建立了一些语料库,并在网上公布,以供查阅,但仅是起到一个检索工具的作用。目前好像还没有公布哪一个权威公认的频数词表,因为“字”和“词”的界线分不清,人都没有弄清楚,计算机更无能为力。一个更具挑战性的任务是汉语历史语料库,这是研究汉语历史变化的重要工具;就以书面语而言,汉语经历过春秋战国、秦汉、唐、宋、元、明、清、民国、当代(且不管甲骨文、铭文、石鼓文)等阶段,对每一个阶段都应该建立有代表性(经过抽样)的语料库,才能对汉语的变化和发展作比较。经过前人的努力,大部分典籍已经句读,但是句子(或句段)内的词却没有切分,与此有关的是汉语的词类划分,仍然是一个争议甚多(“文革”前在中国语言学界里有过一次热烈讨论)的问题。连近来出版的《现代汉语词典》、《汉语大词典》都没标出“词类”。从文献检索的角度看,我国对经典著作编制索引是有传统的,以前称为“引得”(index),燕京大学图书馆洪业(1932)就介绍过“引得”和“堪靠登”(concordance),他谈到蔡耀棠对《道德经》所编制的检索:
由此看到,“也”作为语气助词共有10次,作为表示“并列”关系的副词有3次。洪业还介绍过一个更大型的检索器,那就是康熙43-50年(1704-1711)由皇帝组织张玉书为首的70余人历时7年而完成的《佩文韵府》,共106卷,是1万8千页的巨著。该书除对所收单字(共10,235个字分4声按韵排列)注音和解释外,还收了一些合成词和词组,并注明出典,较符合Sinclair所提出的习语原则。而这完全是手工完成的。我由此想到,像《佩文韵府》这样的经典著作还很多,如《尔雅》、《说文解字》、《方言》、《释名》、《广韵》、《辞源》、《辞海》等等。它们都可以说是经过人工预处理,我们为什么不把它们都电脑化,起码能够省掉很多检索时间,如果能够建立内部连接,对研究汉语的历史和变化就功德无限。附带的一个问题是我国的学术著作似乎有一个“不良的”传统,就是书后没有索引,西方则不然。洪业曾经指出,当年James Legge把中国古籍(其中包括《左传》)翻译到英语,Fraser & Lockhart(两人都是爵士)专门编制An Index to Tso Chuan,英国牛津大学出版社为之发行,Legge所译的《诗经》也有索引。但是迄今为止,中国出版业并没有以此为规范,殊觉可惜。其实只要使用Microsoft Word来编辑索引,也不很难,编者和作者都可以做,要害是页码必须对应。索引很重要,绝非多余,中国著名语言学家周法高就曾经组织一个团队来编制以王念孙《广雅疏证》为基础的《广雅索引》(1977)。周著全部都是手写影印的,因为《广雅》很多古体字、异体字,而计算机的汉语文字处理系统的造字功能当时还没有,现在用起来也很麻烦。这可能也是历史汉语语料库的一个潜在困难。
除了母语,各种外语(特别是通用性最强的,如英、俄、法、西语)也应该受到语料库研究者的关注。其中英语(美国、英国、澳大利亚、加拿大)又应该占有独特的地位,因为它不仅通用性最强,又是语料库语言学的主要发源地。这里首先应该确立的一点是英语并非中国人的母语,也没有一个包括英语的双语社区。不管先天也好,后天也好,中国人并不具备使用英语的语言能力(天性、机能),所以对英语使用中的正误、语用域、型式、习语、语义韵等判断存在很多个别差异。在我国建立的英语语料库应该有两种:一种是英语学习者语料库,它的特点是学习者英语有不同的发展和变化阶段,如小学、初中、高中、大学、研究生等等;另一种是英语使用者语料库,它的特点是:英语应该是接近英语母语使用者,其内容则随着社会和文化的变化而有所不同,如英语版的《新华电讯》、《中国画报》、《中国文学》和很多中国经典著作的英译本。以前一种而言,一个主要的问题是语料的来源,中国英语学习者只有在课堂内才接触英语,课堂外也可以接触一点,如看英语原版电影或电视剧,那也只限于接受性语言,是输入。产出性语言(书面和口语)很难获取,更不用说从大量语料中抽样。所以根据这些语料库来概括学习者的英语特点是有局限的,应十分小心。另外学习者语料库必然有很多语言使用中的失误,从发音、拼写、语法、词汇到语用都有,而这些误差频数往往是判别英语水平高低的标准。准确地说,这些失误其实包括mistakes(失检)和errors(错误),两者既有联系,也应有所区别:前者是语言运用(performance)失误,如不小心,经指出后学习者可自行改正;后者是语言能力(competence)失误,经指出后也无从改正,因为学习者还不懂(见桂诗春 2005)。对学习者语料库我们虽可进行自动化词类标记(如使用Claws软件),但是因为存在失误,大大影响其标记准确性。由Granger 发起的国际英语学习者语料库(ICLE,International Corpus of Learner English)就由多个国家合作收集语料组成,并没有做任何失误标记。桂诗春和杨惠中(2003)所建立的中国学习者英语语料库(CLEC,Chinese Learners English Corpus)是公开发表的带有语言失误标记的一个100 万词的语料库,已为我国语料库研究者提供了方便易用的资源;但是使用者往往认为使用了这些数据就能理所当然地说明问题,而对它的研制和开发,以及所提供数据存在的问题缺乏足够了解。例如:1)CLEC收集的是书面语,但来源却很不相同,因为汉语社区缺乏使用英语的语言环境,所以写的东西并非自发性的(spontaneous)语言使用,有不少是考试中的命题作文,甚至是复述练习,即使是日记、书信也都是布置的作业。CLEC只有100万词,但因为定位在对语料作失误标记,要耗费很多人力,所以难以扩大;2)因为语言来源很不一样,原来设计的题录,有些无法填上,如性别、年龄、在读学校类型、写作时有无词典帮助等项;3)失误的标记由10几个人在不同地区完成,很难统一。更重要的是有些失误可以从不同角度来标,如冠词和名词的单复数、用语和句法等等。试看下面的一句话:Chinese young people are facing increasingly serious problem [np6, s-] on job-seeking, because of big population and less [np8, 1-] post [np6, s-] 标记员认为有3个失误,两个是[np6](名词的“数”),一个是[np8](“数量”)。但是光改了这几点,句子就通顺了吗?其实这牵涉到冠词的应用,一种说法可能是problems, 另一种说法可能是the ( 或an) increasing serious problem, 至于后一个post则不是改为复数可以解决的,应该是few job opportunities。不管是单数还是复数,problem后面跟着的介词应该是of,而不是on。而且big population前面也要有特指,China’s 或her。又如下面的一个句子:Because of this case, people is [vp3 1-] easier to find jobs [vp3 1-] 表示动词出现一致性错误,但是改成 *people are easier to find jobs也不解决问题,应该说it is easier for people to find jobs,才较为通顺一点。

8. 您如何评价您个人对中国语料库研究发展的贡献?

我对中国语料库研究发展说不上有什么贡献,只能说在结合中国实际方面作了一些探索,我和杨惠中教授所领衔建立的CLEC,是属于早期的研究,建成后我们公开宣布这个语料库属于公共资源,可以随意采用,由此引发了一批对中国英语学习者的英语考察,最早的是我们自己的研究,见杨惠中、桂诗春、杨达复(2005),后来被采用的研究应该在百篇以上。美国、日本、新加坡、中国香港等国家和地区的学者都来了解。如上所言,CLEC也有不少有待改善的地方。
我还出过一本关于语言学语体研究的著作(2009),这是在Biber的启发下完成的,把语言学语体(ECOL,English Corpus of Linguistics)和通用型语料库(如FLOB)和BNC的科技语料(包括自然科学、应用科学、社会科学)用多特征/多维度方法来加以比较,也获得一些有用的资料和数据:从语法来说,名词化、名词、现在时、被动式、过去分词省略wh-式、介词、连接式、修饰方式、分裂辅助词、无人称、形态词都是把语言学语体和通用性语体区分开来的一些特征。关键性分析的结果则表明,语言学语体拥有其自身的一批专业性词汇,引导出一些搭配词群,同时对它及其他次专业词汇赋予语言学的内涵。这些词汇在定义性、分类性、分析性(包括结构性、功能性、比较性、说明性)、修饰性语言、词汇包等方面均有其语言学语体的特点。语言学语体的功能是概念性的、语篇性的、以传递和讨论信息及内容为主,它还具有抽象性(名词化、名词)、被动式、逻辑性(连接式)、客观性(there、可能情态词、人称代词较少)、修饰性(定语性形容词、表语性形容词、普通副词、其他副词、分裂辅助词)、紧凑性(过去分词、过去分词省略wh-式)的特点。做这项研究的目的是建立另一个我国研究生(硕士和博士)语言学论文语料库,以作比较,从而研究他们论文写作的特点和问题。这个语料库收集了50多万词,首先是发觉它的代表性有问题,一下子难以解决,ECOL是从10个分支学科(应用语言学、认知语言学、自然语言处理、心理语言学、语用学、语义学、社会语言学、文体学和理论语言学)抽样组成的,而我国研究生的论文研究题目则集中在应用语言学和语用学两个方面;因为代表性不一样,容易产生偏颇。其次是论文写作不规范,有不少地方从原文抄录而又不加说明,所以收集的语料刻意回避“文献综述”,而集中在“讨论”和“结论”上面。我对这两个语料库的46个语法词汇特征,也曾用同样方法作过一些统计和比较,我国研究生语言学语料库有36个(78%)特征,是有显著意义差别的,其中19个(约52%)是超用的,其他是少用的。例如超用的有分类性词汇(Class, 27 92:3 341,log近似值 = 24091)、名词化(Nomil 52:37,log近似值 = 3881)等,少用的有增强语(amplifier 1 12:1 52, log 近似值 = 1541)、减弱语(downtoner 0 45:2 12,log近似值 = 1054)、模糊限制语(hedge 3 3:5 07,log近似值 = 24 9)等。这很有可能和样本来自“讨论”和“结论”部分有关:因为下结论需要条分缕析,而且避免含混。所以我未公开这些结果,以免造成误解。

9. 在您看来,从事语料库研究应具备哪些方面的学科素质?您对从事语言库研究的年轻学子有什么样的忠告?

在上面谈到学科建设的几个方面,我想也可以用来指学科素质,总之“学无止境”、“学然后知不足”,我们不应把语料库语言学看成是一门孤立的学科。它是一支箭,它本身需要磨勘,但更需要射御有术,命中目标。在射御时,既要看准目标,也要环视其周围环境,了然于心。做学问必须开拓视野,诺贝尔奖金获得者、著名认知科学家Simon 曾经以有机体觅食为例,说明它的存活和视野有密切关系,如果按照他所提出的著名Q(不能存活的机会)公式计算,如果视野(v)很窄,只有1 5,而其他变量(“食物的丰富程度(p)”、“环境中的路径(d)”、“储存容量(H)”)不变,则Q = 0 897,如果v 大一倍,为3,则Q = 0 286,如果再增加为4,则Q = 002。见桂诗春(2013)4。这就牵涉到一个不可回避的问题:要在当今时代增加存活机会,要看准目标和环视周围环境必须首先自我“定位”——我们站在什么地方?我们应该定位在“大数据时代”。因此,我愿意向从事语料库研究的年轻学子推荐一本书,就是Mayer-Schonberger 和Cukier 所著的《大数据时代》(Mayer-Schonberger & Cukier 2013)。书中举了几个例子说明大数据时代的到来(其中一例是2009出现甲型H1N1流感新病毒,Google把5,000 万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较:为了测试这些检索词条,总共处理了45亿个不同的数学模型,他们的软件发现了45条检索词条的组合,将它们用于一个特定的数学模型后,他们的预测结果与官方数据的相关性高达97%,而且判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。书中提出在大数据时代来临时需要我们改变思维方式的三个问题,我们可以结合语料库语言学来进一步思考:
1)更多:不是随机样本,而是全体数据。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。所以“样本 = 总体”,数据是越多越好。语料库语言学是敏锐地感到网络兴起对其影响的学科之一,因为像BNC那样现有的语料库难以适应考察英语语法的短暂发生点,而且只集中在英语世界的内环区,又覆盖不了一些新文本如博客、聊天室、交互式网上杂志等,而且网络语言可能是影响语言变化的主要信息源。进入21世纪以来,语料库语言学研究者就开始注目于怎样利用网络来推进研究;一般来说,有两大倾向:一是WaC(Web as Corpus, 把网络作为语料库);一是WfC(Web for Corpus,用网络来建语料库)。前者是利用现成的商用搜索引擎(如Google)来进行检索,或在此基础上进行一些改进(预处理或后处理),如Google(https://books googlecom/ngrams), WebCorp(http://www webcorp org uk/live)或WaCky(http://wacky sslmitunibo it)等等。后者是把网络作为信息源,从网址直接下载网页,然后借助计算机程序来建立庞大离线监控语料库。Hoffmann(2007)就介绍了怎样从CNN网页下载文本(http://transcriptscnn com/TRANSCRIPTS/)来建立语料库。这些探索都见于Hundtet al.(2007)。但是不管哪一种做法,都碰到很多尚待解决的问题,因此受到老一代语料库语言学家的质疑,如Leech(2007)。其中一个核心的问题是网络资源难以满足语料库的基本要求,所以Leech称之为“‘代表性’的圣杯”。首先是网络上的资源并没有口语体,都是书面语,这难以说就是语料的“总体”,它仍然是一些有限的话语,整个网络的语料有多少也无从提供,所以有些网络语料库只是起到一个检索器的作用,无法提供一个频率的词表。而且这些语料是何人(本族语还是非本族语使用者?年龄?性别?受教育情况如何?)使用的,也不知道。语篇的长度和读者信息也无从得悉(是娱乐性的小报还是严肃的大报?),而且有些商业性搜索引擎和算法并没有公开,其搜索结果并不稳定,更不用说有很多重复资料。一般的检索也没有词类标记,这对我们了解检索词的使用也打了折扣。所以这些问题对语料库的代表性、平衡和可比性都很有影响,最后必然导致语料的偏态。在一些语料库语言学研究者的努力下,这些问题正在一一解决,但是网上的种种搜索工具当初都不是为语言学检索而设计的(特别是从召回率和准确率的角度来搜索语言特征,例如要找出由-itis 组成的名词就不容易),所以目前还做不到用网络语料来代替语料库;但它可以对语料库提供更多参照性数据,有利于我们进一步观察。
2)更杂:数据量的大幅增加会造成结果的不准确;与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题的出现。我们从不认为这些问题无法避免,基至需要学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。在语料库越来越大的今天,这对我们研究语料也不无启发,允许不精确数据的出现已经成为一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也就多起来,可以利用这些数据来做更多的事情,做多角度的探索,这不也是Biber 所强调的多特征/多维度分析吗?所以我们不必拘泥于具体的频数,而需更多地注意倾向和发展方向。
3) 更好:不是因果关系,而是相关关系。知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。其实语料库研究把重点放在搭配(collocates)、型式(patterns)也正是在寻找相关关系,而不在于说明其因果关系。
当然,我觉得大数据时代要求使用全体数据,那就无所谓概率和随机抽样,但语料库语言学的一套运作方法都是以概率论为基础的,故有所谓probable grammar(Halliday),probable language(Newmeyer),probabilistic linguistics(Bod et al. 2003)这样的说法。那又怎样理解和调协这两种提法呢?我觉得Mayer-Schonberger提出的是一种目标,所以有“更多”(more)之说,而语料库语言学则是从语言现实和语言使用出发,Bod在书的《序言》里指出,“概率无所不在(everywhere)……概率渗透了整个语言系统”,类符(types)和形符(tokens)的概率都起了重要作用,一个说话人所碰到的包括特定词缀的不同词语(类符)的数量和那些词语(形符)的频数都是同样重要的。而且全球每时每刻都有几十亿人在不同的角落里使用语言,要使用其“总体”,既有困难,又无必要。所以Mayer-Schonberger & Cukier( 2013)也指出,在小数据时代的随机采样是用最少的数据获得最多的信息,也是“非常有见地的”。他还说,“有些时候,我们还是可以使用样本分析法,毕竟我们仍然活在一个资源有限的时代。但是更多时候,利用手中掌握的所有数据成为了最好也是可行的选择”。所以语料库语言学在大数据时代里应该一方面保留其离线语料库,加强其代表性(而不是像Leech 所说的“只在口头上”做到代表性),另一方面是改进搜索引擎,建立以网络为基础的语料库,使它们互相补充。

本文摘自《语料库语言学》2014年第1期《语料库语言学答客问》一文,采访对象为桂诗春教授。了解上篇内容直接点击进入:期刊好文 | 语料库语言学答客问(桂诗春)(上篇)

《语料库语言学》(半年刊)是教育部人文社科重点研究基地中国外语教育研究中心创办的语料库语言学专业期刊,由北京外国语大学中国外语教育研究中心承办,外语教学与研究出版社出版。
本刊旨在记录和追踪国内外语料库研究的进展与动态,使之成为了解语料库语言学的重要窗口。本刊期望《语料库语言学》能够促成中国语料库学界作出既具本土特色,又与国际学界接轨的优质研究。本刊的主要栏目有:语料库与中介语研究、语料库与语言对比研究、语料库与翻译研究、语料库与话语研究、语料库的研制与创建、语料库软件的设计与开发、书刊评介。
电子邮箱:bfsucrg@sina.com 投稿网址:http://ylyy.chinajournal.net.cn (点击下方阅读原文直接进入)

声明:本文版权归《语料库语言学》编辑部所有,感谢《语料库语言学》编辑部授权刊载。其他任何学术平台若有转载需要,可致电010-88819585或发送邮件至research@fltrp.com,我们将帮您协商授权事宜,请勿擅自转载。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存